3 research outputs found
Coevolução molecular em canais iônicos e neurotoxinas
Dissertação (mestrado)—Universidade de Brasília, Programa de Pós-Graduação em Biologia Molecular, 2016.A peçonha de escorpiões contém diversos tipos de neurotoxinas que podem interagir entre si para modular a função de canais iônicos¹. A ação desses polipeptídeos leva à ativação de canais de sódio e inibição de canais de potássio, causando um elevado influxo de sódio e a liberação de neurotransmissores, seguida por um bloqueio da excitabilidade celular². Apesar de possuírem estrutura 3D similar, as chamadas α- e β-toxinas de escorpião afetam canais iônicos de sódio dependentes de voltagem (NaV) por meio de mecanismos diferentes: as α-toxinas interagem com o sítio 3 no domínio sensor de voltagem IV (VSD-IV) e inibem o processo de inativação rápida do canal¹, enquanto as β-toxinas interagem com o sítio 4 no VSD-II e causam a hiperativação do canal por meio de um mecanismo de aprisionamento do sensor de voltagem³. Em um contexto evolutivo, espera-se que o sistema composto por esses dois tipos de toxinas e os seus alvos moleculares, os VSD de NaV, tenham sofrido um processo de coevolução molecular. Partindo do princípio de que seja possível detectar, através da análise de sequências primárias, sinais de coevolução molecular que determinem a seletividade e afinidade entre os pares toxina-VSD, foi possível propor um um modelo evolutivo de interação e seletividade entre α- e β-toxinas de escorpião e VSD-II e -IV de NaV, o qual representa o melhor conjunto possível de interações toxina-VSD. Para tanto, foi desenvolvido um algoritmo genético capaz de otimizar, baseado em um critério de energia e acoplamento, um dado sistema composto por dois conjuntos de posições de aminoácidos, obtidos de dois alinhamentos múltiplos de sequências (MSA) de proteínas. O algoritmo genético foi desenvolvido para encontrar a melhor forma de parear as sequências do MSA1 com as sequências do MSA2 de forma a minimizar a energia de interação total dos pares. O modelo otimizado de coevolução (MOC) apresentou dois grupos bem definidos, um formado por interações entre α-toxinas e VSD-IV e o outro composto por interações entre β-toxinas e VSD-II. Esse resultado indica que o algoritmo foi capaz de encontrar uma solução realista para o problema. O modelo obtido fornece informações importantes sobre quais interações entre resíduos definem as regras para as afinidade diferenciais entre β-toxinas e VSD-II, e α-toxinas e VSD-IV. Com isso, foi possível inferir um conjunto de resíduos que caracteriza a superfície funcional de cada grupo de toxinas. Os resultados obtidos são corroborados por resultados experimentais da literatura.Scorpion venoms contain several types of neurotoxins that might interact with each other, modulating the function of ion channels¹. The action of these polipeptides leads to the activation of sodium channels and inhibition of potassium channels, causing a high sodium influx and the liberation of neurotransmitters, followed by a blockage of cellular excitability². Regardless of their similar 3D structures, the so-called α- and β-scorpion toxins affect voltage-gated sodium channels (NaV) through very different mechanisms: α-toxins interact with the extracellular site 3 in the voltage sensor domain IV (VSD-IV) and inhibit the rapid channel inactivation process¹, while β-toxins interact with site 4 in VSD-II and cause channel hyperactivation through a voltage sensor trapping mechanism³. In an evolutionary context, it is expected that the system composed of this two types of gating modifier toxins plus the targeted NaV VSD will present some coevolution traces. Starting from the hypotheses that it is possible to detect, through sole primary sequence analysis, signals of molecular coevolution determining selectivity and specificity between pairs of interacting proteins, it was possible to propose an evolutionary model of interaction and selectivity between scorpion α- and β-toxins and NaV VSD-II and -IV, which represents the best possible arrangement of interacting pairs. To achieve that, a self-developed and implemented genetic algorithm that was able to optimize, based on an energy-coupling criterion, a given system composed of two sets of information channels coming from two different protein multiple sequence alignments (MSA) was used. Basically, the genetic algorithm was designed to find the best way of pairing the sequences coming from MSA1 with the sequences coming from MSA2 in order to minimize the overall interaction energy of the pairs. The optimized model presented two well-defined groups, one composed of α-toxins interacting with VSD-IV and the other composed of β-toxins interacting with VSDII. This result indicates that the model is probably accurate. Going one step further, we applied PCA to extract important information from the optimized model about the interacting residues in the two groups (β- toxins, VSD-II and α-toxins, VSD-IV). It was then possible to infer the set of residues responsible for the unique features observed in the two groups of toxins. The results obtained in this last step are in conformation with data coming from experimental assays
Assessing the utility of mutual information stored in protein-protein interfaces to infer specific protein partners
Tese (doutorado)—Universidade de Brasília, Instituto de Ciências Biológicas, Departamento de Biologia Celular, Programa de Pós-Graduação em Biologia Molecular, 2021.Proteínas são essenciais para diversos processos celulares. Assim, um dos objetivos centrais da Biologia é
entender as relações entre sequência, estrutura e função dessas macromoléculas. Nesse contexto, as
marcas deixadas pelo processo coevolutivo em sequências de proteínas parceiras são uma importante fonte
de informação estrutural. De fato, as correlações estatísticas entre sítios de aminoácidos em sequências de
proteínas são a base dos métodos mais modernos para a previsão de contatos inter- e intra-proteínas,
predição de estrutura tridimensional, identificação de sítios funcionais e resíduos determinantes de
especificidade, inferência de interações entre parálogos, entre outras aplicações. Em consonância com isso,
o presente trabalho apresenta um conjunto de resultados teóricos sobre como proteínas parceiras
específicas podem ser recuperadas com base apenas nas informações da sequência. No primeiro capítulo,
é realizada uma decomposição da informação mútua (MI) presente nos complexos proteína-proteína,
considerando a hipótese de que a MI em proteínas se origina de uma combinação de diferentes fontes:
coevolutiva, evolutiva e estocástica. Foi observado que a interface contém, em média por contato, mais
informações do que o restante do complexo protéico, resultado que se mantém quando se considera tanto a
MI de Shannon quanto a de Tsallis como medida de informação. Essa observação levou à conclusão de que
a interface contém o sinal de informação mais forte para distinguir o conjunto correto de proteínas parceiras
em famílias de proteínas que interagem. Com base nisso, a utilidade de usar a MI armazenada em
interfaces proteína-proteína para recuperar o conjunto correto de proteínas parceiras é avaliada no segundo
capítulo. Um algoritmo genético (GA) foi desenvolvido para explorar o espaço de possíveis concatenações
entre um par de famílias de proteínas que interagem usando a MI da interface como função objetivo.
Usando o GA, a maximização da MI da interface foi realizada para 26 pares de famílias de proteínas que
interagem e foi observado que concatenações otimizadas correspondem a soluções degeneradas com duas
fontes de erro distintas, decorrentes de pareamentos errados entre (i) sequências similares e (ii) não
similares. Quando os erros cometidos com sequências semelhantes foram desconsiderados, as soluções do
tipo (i) apresentaram taxas de verdadeiros positivos (TP) de 70 % - muito acima das mesmas estimativas
para soluções do tipo (ii). Esses resultados se mantêm quando as otimizações são feitas com base na MI de
Tsallis. Essas descobertas levantam questões sobre os mecanismos por trás da coevolução de proteínas
parceiras e ajudam a racionalizar os dados da literatura que mostram uma forte deterioração das taxas de
TP com o aumento do número de sequência em abordagens baseadas em MI.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).Proteins are essential for several cellular processes. Hence, one of the central objectives in Biology is to
understand the relationships between sequence, structure and function of these macromolecules. In this
context, marks left by the coevolutionary process in interacting protein sequences are an important source of
structural information. In fact, statistical correlations between amino acid sites in protein sequences are at
the basis of state-of-the-art methods for prediction of inter- and intra-protein contacts, template-free structure
prediction, identification of functional sites and specificity determining residues, inference of interacting
paralogs, among other applications. In line with that, the present work conveys a set of theoretical results on
how specific protein partners can be recovered based on sequence information alone. In the first chapter, a
decomposition of the mutual information (MI) present in protein-protein complexes is carried out, considering
the hypothesis that MI in proteins is originated from a combination of coevolutive, evolutive and stochastic
sources. It was observed that the interface contains on average, by contact, more information than the rest of
the protein complex, a result that holds when considering both Shannon and Tsallis MI as a measure of
information. This observation led to the conclusion that the interface contains the strongest information signal
for distinguishing the correct set of protein partners in interacting protein families. Building on that, the utility
of using MI encoded on protein-protein interfaces to recover the correct set of protein partners is assessed in
the second chapter. A genetic algorithm (GA) was developed to explore the space of possible concatenations
between a pair of interacting protein families using the interface MI as objective function. Using the GA,
interface MI maximization was performed for 26 different pairs of interacting protein families and it was
observed that optimized concatenations corresponded to degenerate solutions with two distinct error
sources, arising from mismatches among (i) similar and (ii) non-similar sequences. When mistakes made
among similar sequences were disregarded, type-(i) solutions were found to resolve correct pairings at best
true positive (TP) rates of 70% - far above the very same estimates in type-(ii) solutions. These results hold
when the optimizations are made based on Tsallis MI. These findings raise further questions about the
mechanisms behind protein partners coevolution and help rationalize literature data showing a sharp
deterioration of TP rates with increasing sequence number in MI-based approaches
Um novo método baseado no modelo de Potts para detecção de intrusão em rede
Trabalho de conclusão de curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2020.Sistemas de Detecção de Intrusão em Rede (NIDS, do inglês Network Intrusion Detec- tion Systems) desempenham um importante papel como ferramentas para identificação de potenciais ameaças a redes de computadores. No contexto de crescentes volumes de tráfego de internet em redes de computadores, NIDS baseados em fluxos constituem boas soluções para o monitoramento de tráfego em tempo real. Nos últimos anos, diferentes classificadores de tráfego baseados em fluxos foram propostos utilizando aprendizagem de máquina. Entretanto, algoritmos de aprendizagem de máquina possuem algumas lim- itações. Além de requerer grandes quantidades de exemplos categorizados, que podem ser difíceis de obter, a maioria desses algoritmos não consegue se adaptar bem a difer- entes domínios, i.e., após serem treinados em um conjunto de dados específico, não são facilmente generalizáveis para outros conjuntos de dados. Por fim, muitos dos modelos inferidos por esses algoritmos são não interpretáveis. Para contornar essas limitações, é proposto um novo classificador de fluxos, chamado Energy-based Flow Classifier (EFC). EFC é um classificador baseado em anomalias que utiliza estatística inversa para inferir um modelo estatístico utilizando apenas exemplos benignos. É mostrado que o EFC é ca- paz de realizar classificação de fluxos de forma precisa e é mais adaptável a novos domínios do que algoritmos clássicos baseados em aprendizagem de máquina. Dados os bons resul- tados obtidos considerando três conjuntos de dados diferentes (CIDDS-001, CICIDS17 e CICDDoS19), o EFC se mostra como um algoritmo promissor para classificação robusta de fluxos de rede.Network Intrusion Detection Systems (NIDS) play an important role as tools for identify- ing potential network threats. In the context of ever-increasing traffic volume on computer networks, flow-based NIDS arise as good solutions for real-time traffic classification. In recent years, different flow-based classifiers have been proposed using machine learning algorithms. Nevertheless, the classical machine learning algorithms have some limita- tions. For instance, they require large amounts of labeled data, which might be difficult to obtain. Additionally, most machine learning algorithms are not capable of domain adaptation, i.e., after being trained on a specific dataset, they are not general enough to be applied to other related data distributions. And, finally, many of the models inferred by this algorithms are uninterpretable. To overcome these limitations, we propose a new flow-based classifier, called Energy-based Flow Classifier (EFC). This anomaly-based clas- sifier uses inverse statistics to infer a statistical model based on labeled benign examples. We show that EFC is capable of accurately performing a one-class flow classification and is more adaptable to new domains than classical machine learning algorithms. Given the positive results obtained on three different datasets (CIDDS-001, CICIDS17 and CICD- DoS19), we consider EFC to be a promising algorithm to perform robust flow-based traffic classification